Pandas学习之 |
您所在的位置:网站首页 › python 显示所有列名 › Pandas学习之 |
1 数据获取
先引入必要的库 import pandas as pd import numpy as np 1.1 读取数据使用方法:pandas.read_csv() 参数: (1)文件所在的路径 (2)headers:设置参数headers=None,pandas将不会自动将数据集的第一行设置为列表表头(列名) other_path = "https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DA0101EN/auto.csv" df = pd.read_csv(other_path, header=None) 查阅数据集的前n行,使用函数df.head(n);查阅数据集的倒数后n行,使用函数df.tail(n) df.head(5)输出: 输出: 观察上面读取出来的部分数据,pandas自动将列名(表头)设置为从0开始的数字标签。 首先创建出一个列表headers,里面内容就是每列的名称,然后使用方法:df.columns = headers来将列名替换成我们刚才设置的。 headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style", "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type", "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower", "peak-rpm","city-mpg","highway-mpg","price"] df.columns = headers df.head(10)输出: 关于方法dropna(): 参数: (1)axis: default 0指删除行,1为删除列 (2)subset:对特定的列进行缺失值删除处理 (3)how: {‘any’, ‘all’}, default ‘any’指带缺失值的所有行;'all’指清除全是缺失值的 (4)thresh:int,保留含有int个非空值的行 (5)inplace:True表示直接在原数据上更改 df=df1.dropna(subset=["price"], axis=0) df.head(20)上面的调用,表示,删除“price”列为空值的行。 输出:
输出: 我们可以将处理过的dataframe(df)保存成某种格式(例如:.csv)的文件,方便以后进行读取。 使用方法df.to_csv(“文件要保存的路径”, index = False) df.to_csv("automobile.csv", index=False)注:参数index的含义为“是否保留行索引”, 默认为True 关于pandas的to_csv()的使用方法详见这篇博客: https://blog.csdn.net/toshibahuai/article/details/79034829 当然我们可以读取其他格式的数据,对数据操作完成后,我们也同样可以将数据保存为不同的格式,下图显示了读取其他格式文件以及将数据集保存为其他格式的方法:![]() dataframe的属性dtypes可以返回表示每列数据名称及类型的列表: print(df.dtypes)输出: 第一列为列名,第二列为数据的类型 使用:dataframe.describe()即可查看每列数据的 (1)总行数统计count (2)平均值mean (3)标准差std (4)最小值min (5)25%分位值“25%” (6)50%分位值“50%” (7)75%分位值“75%” (8)最大值max df.describe()输出: 如果我们想查看所有列的统计特征(即包括非数据类型的列,例如object类型的列),就需要在describe()方法中添加参数(include = “all”) df.describe(include = "all")输出: 使用如下语句: dataframe[[‘column1’, ‘column2’, ‘column3’]].describe() df[['length', 'compression-ratio']].describe()输出: 使用如下语句: dataframe.info() 此方法打印有关dataframe的信息,包括索引dtype和列、非空值和内存使用情况。 df.info()输出:
通过属性shape,获取数据集的(行数,列数) ratings_df.shape输出: (463, 19) |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |